GeneDock HG 手册
Part 1 产品介绍
1. GeneDock HG 人全基因组标准化分析服务用途
GeneDock HG使用BWA、Sentieon软件,对全基因组数据,进行从fastq到vcf的分析(包含SNV和INDEL)。
Sentieon DNAseq 是一款类似于GATK (The Genome Analysis Toolkit) 的软件,主要用于二代测序数据的变异分析,包括SNV和INDEL。GeneDock的生信团队与数据计算团队共同努力,在数据传输优化、分析算法选择、计算资源选型等方面都进行了优化,并对分析关键步骤做了分布式处理,在保证同GATK鉴定结果准确度一致的基础上,大大降低了用户的分析成本,缩短了运行时间。
Sentieon是一款类似于GATK (The Genome Analysis Toolkit) 的软件,主要用于二代测序数据的变异分析,包括SNP和INDEL。Benchmark测试结果 (https://peerj.com/preprints/1672/)显示,Sentieon软件在保证同GATK 3.3软件鉴定结果准确度一致的基础上,比GATK 3.3速度提升了约20倍(相同的硬件设备)。
且该软件获得
Winner, precisionFDA Consistency Challenge
Winner, precisionFDA Truth Challenge
更多信息:Sentieon官方网站:《 Sentieon DNAseq, for consistent and confident germline variant detection》
2. 整体步骤:
整体可分为4个部分:
1. 序列比对(Mapping):使用trimmomatic软件进行前处理,使用bwa mem进行比对,使用samtools对bam文件进行排序、格式转换等操作。
2. Bam文件前处理(Bam processing):使用Sentieon软件做去重复序列(rmdup)、INDEL Realignment(realign)、Base quality score recalibration(bqsr)。
3. SNV和INDEL检测(SNP and INDEL calling):使用Sentieon软件的HaplotypeCaller(hc)对SNP和INDEL同时进行检测。
4. 变异优化(Callset Refinement):使用Sentieon软件的VQSR对varaint quality score做矫正(此步骤SNP和INDEL分别进行)。
5. 对原始序列 (FASTQ) 和比对后序列 (BAM) 的基本计量参数进行统计:原始序列 (FASTQ)统计包括Reads数目、N所占比例、低质量碱基的比例、Q20、Q30、与Adaptor相关的reads比例,以及质量值和GC含量图等。比对后序列 (BAM)的统计包括:靶标区域所占比例、平均测序深度、重复区域比例、比对率、不同X数reads所占比例,以及目标区域测序深度图等,具体图表格式可以参考GeneDock 博客。
流程中步骤与GATK的Best Practices基本一致。
关于其中使用的knowsites输入文件也与GATK软件一致,可以参考这个链接。
【运行时间】
2016年12月29日genedock_wym测试45.00GB+44.94GB的fastq.gz文件。北京域:4.5小时。
由于全基因组原始数据较大,因此给数据分析带来了很大的挑战。
本工作流利用“fastq按行拆分、bam按染色体分组拆分”的原理,可以大大缩短运行时间。
本流程中bam文件的6个染色体分组,具体情况如下(以hg19的染色体名为例):
- 第0组:chr1和chr2
- 第1组:chr3、chr4和chr5
- 第2组:chr6、chr7和chr8
- 第3组:chr9、chr10、chr11和chr12
- 第4组:chr13、chr14、chr15和chr16
- 第5组:chr17、chr18、chr19、chr20、chr21、chr22、chrX、chrY和chrMT
【准确性评估】
本流程步骤与GATK的GATK best practice基本一致,准确性评估请参考这个链接。
【注意事项】
- 本流程需要是双端测序。
- 流程中会使用GATK官方推荐的reference、knowsites输入文件,下载自Broad的FTP。
- 根据我们的经验,此全基因组流程中VQSR步骤要求至少100M的vcf输入,因此,我们建议全基因组的fastq.gz文件要在30G*2以上。10G*2的数据,请不要使用此工作流。
- 如果输入fq文件是多个lane的,请注意read1和read2的顺序要一一对应。
关于此流程有任何问题,请您随时与我们的工程师联系。
Part 2 GeneDock HG 操作教程
1.查看工作流详情:进入后台后,点击左侧工具栏中的工作流,在我的工作流标签中选择public,可以看到WGS_Germline_BWA_Sentieon_ContainRef_stat工作流,点击“详情”,查看该工作流的介绍,包括:【概述】、【基本背景】、【整体步骤】、【运行时间】、【准确性评估】、【注意事项】等(如图1,图2);
2.运行工作流:熟悉工作流的信息后,重复第一步骤,点击“运行”,进入到运行工作流界面(如图3),为了方便后续查找任务,可以修改“任务名称”;
3.设置输入文件:1、双端测序结果文件;2、adaptor序列文件。点击输入文件条中对应的文件夹符号,可以看到对应的数据选择框,其中最上边可以看到对应的文件格式(如fq,fastq,gz),在您需要的文件前面操作栏选择“选取”,然后就可在输入文件条中看到选定的输入文件,所有输入文件都选择完毕后,点击“下一步”(如图4、图5);
4.设置输出文件:输出文件已经自动加载默认路径和文件名称,可以按照项目的目录情况自行修改,如无需要可以不做修改,所有输出文件都选择完毕后,点击“下一步”(如图6);
5.设置参数:系统中会绑定默认参数,且会标明参数属于的工具名称,如有需要修改参数,将鼠标放置参数名称上可查看参数的说明,选择参数后可直接修改(如图7);
6.预览及运行工作流:所有参数都设置完毕后,可以点击预览,确认前面的所有设置,确认好后点击‘运行任务’,开始运行工作流(如图8);
7.查看任务:几分钟后可以点击左侧工具栏中的“任务/报告”查看相应工作流的运行状态。为了方面查看任务,用户可以按照任务创建和运行状态等筛选。另外,对于不需要的任务,可以删除该任务。如(如图9):
点击所要查询的任务,可以查看“参数”,“日志”,“报告”以及“相关文件下载和预览”。点击“参数“ ,可以看到输入,输出和相关参数,(如图10):
点击”日志“,可以看到每一步的完成状态。点击APP名称,可以看到部分输出日志,点击“下载日志”可以下载查看完整的输出日志(如图11);
注:目前的工作流没有设置报告模板,因而报告不可查看,所以只能查看“相关文件下载和预览”。
点击“相关文件下载和预览”,可以看到任务的结果文件。对于文本文件和png等图文件,支持在线预览和下载,超过100M的文件,建议按照下文使用客户端下载(如图12)。
8.数据结果的查看和下载:点击左侧工具栏中的“数据”,选定对应的任务运行前设定的输出路径,进入任务输出路径后,可以看到结果文件,并且使用提供的完整路径,使用客户端进行下载(如图13,图14)。
Part 3 参数解释
1. 工具:GD-toolkit_mapping_6-chromsome-groups_ContainRef
参数 | 软件 | 默认值 | 解释 |
---|---|---|---|
sliding_window | Trimmomatic | 4,15 | Windows的size是4个碱基,其平均碱基质量小于15,则切除 |
leading | Trimmomatic | 3 | 切除首端碱基质量小于3的碱基或者N |
mark_short_split_hits_as_secondary | Bwa-mem | Yes | 加入此参数用于将shorter split hits 标记为次优,有利于兼容 Picard、GATK |
head_crop | Trimmomatic | 0 | 切除reads开始指定数目碱基 |
crop | Trimmomatic | 10000 | 保留reads到指定的长度 |
to_phred64 | Trimmomatic | False | 将碱基质量转换为pred64格式 |
illumina_clip | Trimmomatic | 2,30,10 | 切除adapter序列:允许的最大mismatch数;palindrome模式下匹配碱基数阈值;simple模式下的匹配碱基数阈值 |
to_phred33 | Trimmomatic | False | 将碱基质量转换为pred33格式 |
read_group | Bwa-mem | sample | read group中sample名称,@RG\tID:{{parameters.read_group}}\tSM:{{parameters.read_group}}\tPL:illumina\tLB:lib |
minlength | Trimmomatic | 36 | 最小的reads长度 |
phred33 | Trimmomatic | False | 设置碱基的质量格式为phred33 |
trailing | Trimmomatic | 3 | 切除尾端碱基质量小于指定值的碱基 |
refname | Bwa-mem | hg19 | 流程中使用的reference(可选hg19或者b37),reference文献下载自Broad的FTP |
2. 工具:samtools merge bam*(由于本流程分6份染色体,因此有6个bam0-5)
参数 | 软件 | 默认值 | 解释 |
---|---|---|---|
sort_by_read_names | samtools merge | False | 使输入的比对序列按照read的名字来排序,而不是染色体坐标 |
attach_rg_tag | samtools merge | False | 给每个比对添加一个 RG 标签,标签的值是通过文件名来推测的 |
combine_PG | samtools merge | True | 把 PG 标签和 colliding IDs 结合,而不是添加一个后缀去区分它们 |
combine_RG | samtools merge | True | 把 RG 标签和 colliding IDs 结合,而不是添加一个后缀去区分它们 |
3. 工具:sentieon_metrics
参数 | 软件 | 默认值 | 解释 |
---|---|---|---|
vqsr_omni | sentieon VQSR | 1000G_omni2.5.hg19.sites.vcf | omni文件名称(可选1000G_omni2.5.hg19.sites.vcf或者1000G_omni2.5.b37.vcf),使用GATK官方推荐的knowsites输入文件,下载自Broad的FTP |
thread | sentieon VQSR | 8 | 线程数 |
vqsr_hapmap | sentieon VQSR | hapmap_3.3.hg19.sites.vcf | hapmap文件名称(可选hapmap_3.3.hg19.sites.vcf或者hapmap_3.3.b37.vcf),使用GATK官方推荐的knowsites输入文件,下载自Broad的FTP |
refname | sentieon VQSR | hg19 | 流程中使用的reference(可选hg19或者b37),reference文献下载自Broad的FTP |
vqsr_Mills | sentieon VQSR | Mills_and_1000G_gold_standard.indels.hg19.sites.vcf | Mills文件名称(可选Mills_and_1000G_gold_standard.indels.hg19.sites.vcf或者Mills_and_1000G_gold_standard.indels.b37.vcf),使用GATK官方推荐的knowsites输入文件,下载自Broad的FTP |
vqsr_1000G_indel | sentieon VQSR | 1000G_phase1.indels.hg19.sites.vcf | 1000G_indel文件名称(可选1000G_phase1.indels.hg19.sites.vcf或者1000G_phase1.indels.b37.vcf),使用GATK官方推荐的knowsites输入文件,下载自Broad的FTP |
vqsr_1000G_snp | sentieon VQSR | 1000G_phase1.snps.high_confidence.hg19.sites.vcf | 1000G_snp文件名称(可选1000G_phase1.snps.high_confidence.hg19.sites.vcf或者1000G_phase1.snps.high_confidence.b37.vcf),使用GATK官方推荐的knowsites输入文件,下载自Broad的FTP |
vqsr_dbsnp | sentieon VQSR | dbsnp_138.hg19.vcf | dbsnp文件名称(可选dbsnp_138.hg19.vcf或者dbsnp_138.b37.vcf),使用GATK官方推荐的knowsites输入文件,下载自Broad的FTP1 |
4. 工具:sentieon_me_rm_indel_bqsr_hc(共6个)
参数 | 软件 | 默认值 | 解释 |
---|---|---|---|
knowsites_dbsnp | sentieon variant caller | dbsnp_138.hg19.vcf | dbsnp文件名称(可选dbsnp_138.hg19.vcf或者dbsnp_138.b37.vcf),使用GATK官方推荐的knowsites输入文件,下载自Broad的FTP |
thread | sentieon | 8 | 线程数 |
emit_conf | sentieon variant caller | 30 | 在vcf结果文件中,低于指定值的位点则不进行报告 |
call_conf | sentieon variant caller | 30 | 设定variant位点的置信阈值,低于该阈值则为low quality |
refname | sentieon | hg19 | 流程中使用的reference(可选hg19或者b37),reference文献下载自Broad的FTP |
knowsites_IndekRealigner | sentieon Indel realigner | Mills_and_1000G_gold_standard.indels.hg19.sites.vcf& 1000G_phase1.indels.hg19.sites.vcf |
Indel realigner 步骤knowsites输入文件名称(可选hg19或者b37的相关文件,多个文件名称使用&连接),使用GATK官方推荐的knowsites输入文件,下载自Broad的FTP |